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摘要 : [目的 ] 分析 关系 数据 库 中 实体 解析 技术 的 研究 现状 和 未 来 研究 方向 。[ 方 法 ] 从 实体 解 
析 的 精度 和 效率 两 方面 展开 系统 研究 。 精 度 方 面 基于 增 量 式 、 统 计 方 法 和 相关 信息 。 效 率 方面 
基于 分 块 、 字 符 串 相似 和 其 他 思想 。[ 结 果 ] 最 大 化 实体 解析 精度 和 解析 效率 是 实体 解析 技术 
研究 的 主要 目标 ， 但 在 数据 源 的 动态 演化 、 异 构 性 和 非 精确 字符 串 匹 配 等 方面 的 研究 仍 面临 
重大 挑战 。[ 局 限 ] 仅 从 实体 解析 过 程 中 所 需 的 精度 和 效率 方面 进行 探讨 ， 对 解析 模型 本 身 的 
特点 和 局 限 性 关注 不 足 。[ 结 论 ] 本 研究 有 助 于 更 全 面 地 了 解 关系 数据 库 中 实体 解析 的 过 程 、 
究 现状 和 未 来 研究 方向 。 
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Abstract: [Objective] To analyse the current status and future research 
direction of Entity  Resolution(ER) over relational databases. [Methods] 
Systematical researches are conducted on two aspects of the accuracy and 
efficiency of ER. The accuracy of ER was based on incremental methods, 
statistical methods and related information. The efficiency of ER was based on 
blocking, string similarity and others. [Results] Maximizing precision and 
efficiency is the main objective of entity resolution, but research on dynamic 
evolution and heterogeneous of data sources and inexact string matching still 
faces significant challenges. [Limitations] Only precision and efficiency needed 
in the process of entity resolution are discussed, but the characteristics and 
limitations of ER model need to pay more attentions. [Conclusions] This paper 


will facilitate to give a comprehensive overview of the process of ER over 
relational databases, research status and future research direction. 
Keywords: Entity resolution; record linkage; Relation Databases 


1 引言 


实体 解析 〈Entity Resolution, ER) 的 研究 已 有 很 长 一 段 时 间 ， 一 些 早期 的 
研究 工作 可 以 追溯 到 20 世纪 30 年代“ ， 但 现在 它 依然 是 一 个 活跃 的 研究 领域 。 
早 在 1969 年 ，Fellegi 和 Sunter 就 基于 指向 同一 现实 世界 实体 的 不 同 记录 应 具有 
某 些 共性 这 一 假设 ， 提 出 了 一 种 链接 记录 的 技术 中 ,或 称 为 实体 解析 技术 ， 数 
据 库 领域 的 后 续 研 究 也 大 都 遵循 这 一 假设 。 实 体 解 析 技 术 已 在 各 种 名 称 下 被 广泛 
研究 ， 包 括 记 录 链 接 (Record Linkage) ?',. 4 3f/idiit (Merge/Purge) H, HE 
数据 删除 (Deduplication ) ^, M] (Reference Reconciliation) ', XAR 
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别 CObject Identification) "和 其 他 等 在 关系 数据 库 中 ， 实 体 解析 技术 主要 
是 指 解 析出 描述 同一 实体 的 n 个 (n>1) 相似 重复 记录 ， 这 里 的 记录 又 被 称 为 
数据 。 其 中 ， 解 析 模 型 可 大 致 分 成 以 下 3 类: 基于 匹配 的 聚 类 (基于 布尔 规则 匹 
ACs BARS) 0 小， 基于 距离 的 聚 类 (基于 相对 距离 的 记录 聚 类 ) UA C 
或 成 对 实体 解析 (Pairs ER， 逐 对 解析 记录 ) 中。 

随 着 “大 数据 ”时 代 的 到 来 ，ER 技术 在 数据 清理 、 数 据 集成 和 数据 挖掘 等 
研究 领域 中 起 着 关键 的 作用 ， 因 此 ， 在 数据 质量 和 信息 共享 等 方面 ER 技术 被 
视 为 一 种 重要 的 保障 性 技术 。 由 于 ER 技术 的 应 用 范围 涵盖 了 多 个 领域 ， 例 如 ， 
AMEE, ARTE, Web 搜索 、 商品 列表 比较 、 反 恐 、 垃 圾 邮件 检测 和 机 器 阅 
读 等 领域 ， 因 此 ， 其 引起 了 来 自学 术 界 、 工 业界 很 多 专家 的 关注 。 尽 管 在 结构 化 
数据 库 中 实施 抽取 、 匹 配 和 解析 的 ER 技术 是 一 项 较为 成 熟 的 技术 ， 但 其 面临 的 
最 具 挑 战 性 问题 仍然 是 高 效 性 和 准确 性 ， 尤 其 是 在 复杂 的 大 数据 情况 下 。 

国内 外 已 有 研究 对 实体 解析 过 程 的 每 个 步骤 所 涉及 的 方法 进行 了 介绍 和 阐 
XR? 中， 但 并 未 从 实体 解析 目标 这 一 角度 来 探索 其 解析 策略 。 鉴于 此 ， 笔 者 从 实 
体 解析 过 程 中 所 涉及 的 精度 和 效率 两 方面 ， 来 分 析 、 整理 相关 文献 以 对 关系 数据 
库 中 实体 解析 研究 进行 综述 。 同 时， 期望 该 综述 为 将 来 实体 解析 研究 的 优化 整合 
与 进一步 挖掘 提供 一 些 有 价值 的 借鉴 和 参考 。 


2 实体 解析 技术 概述 


为 对 关系 数据 库 中 ER 技术 有 一 个 简明 扼要 的 完整 性 了 解 ， 本 节 将 从 实体 与 
记录 间 的 关系 、 实 体 解析 过 程 两 方面 对 其 进行 概述 ， 使 之 形成 一 个 相对 完整 的 理 
论 体系 。 


2.1 实 体 与 记录 间 的 关系 


所 描述 的 实体 可 能 是 一 个 物理 对 象 ( 例 如 一 个 人 或 一 座 房屋 ) ， 或 者 可 能 
是 一 个 逻辑 结构 (例如 一 个 家 庭 \ 一 个 社交 网 络 或 喜欢 某 一 特定 类 型 音乐 的 人 物 
列表 ) ， 他 们 被 视 为 属于 某 个 类 别 的 集合 ， 比 如 人 物 类 别 下 的 多 个 个 体 组 成 的 
集合 。 关 系数 据 表 是 这 些 集合 的 数字 表示 。 关 系数 据 表 包 含 一 系列 的 记录 
(records) 或 条 目 〈entries) ， 其 中 ， 每 一 个 记录 与 现实 世界 中 的 一 个 或 多 个 实 
体 相 关联 。 特别 地 ， 每 个 记录 可 能 指 同 一 个 特定 的 实体 ， 但 是 每 个 实体 可 能 有 一 
个 或 多 个 描述 它 的 记录 ， 如 图 1 所 示 。 其 中 ， 记 录 是 由 列 〈 属 性 、 域 ) 组 成 。 很 显 
然 ， 所 有 记录 的 模式 结构 是 相同 的 ， 这 有 利于 实体 解析 算法 的 应 用 。 


Lu mur  [ sunny | sum 
17 Lexington Ave. | 24% Jan, 1948 | $80, 000. 00 
55 Lexington Ave. | 24 Jan, 1948 | $80, 000. 00 


Ann [55% Ave. |9th Feb, 1982 | $70, 000. 00 


现实 世界 中 实体 数字 表示 
1 现实 世界 中 实体 和 相应 的 数字 表示 


特别 地 ， 图 1 中 有 3 个 实体 (人 物 ) 被 4 个 记录 所 表示 ， 其 中 有 2 个 重复 的 
记录 (NAME 属性 值 为 “Tom” 的 两 个 记录 ) ， 本 文 将 他 们 称 为 相似 重复 记录 。 


通常 情况 下 ， 人 们 希望 删除 关系 数据 表 中 的 相似 重复 记录 ， 因 为 这 些 相 似 重复 
记录 是 影响 数据 质量 的 关键 问题 之 一 ， 比 如 在 数据 集成 等 系统 中 ,为 此 ， 可 采用 
的 较 合 理 处 理 方式 有 : 或 者 将 相似 重复 记录 合并 成 单个 记录 ， 或 者 链接 每 个 相 
似 重复 记录 。 最 后 ， 正 如 M LLER H 等 "" 在 研究 中 指出 ， 解 析 这 些 重复 的 记录 
以 让 他 们 指向 同一 实体 的 任务 不 仅 非常 艰巨 ， 而 且 可 能 非常 有 意义 。 


2.2 实 体 解 析 过 程 


在 关系 数据 库 中 ， 实 体 解 析 过 程 通常 分 为 三 个 阶段 : 预 链接 阶段 、 链 接 阶段 
和 后 链接 阶段 |), 
(1) 预 链接 阶段 。 记录 被 预 处 理 或 规范 化 ， 以 提高 链接 精度 。 预 链接 阶段 可 
能 是 这 3 个 阶段 中 最 依赖 于 上 下 文 的 阶段 ， 因 为 其 目标 是 转换 记录 的 属性 数据 
以 使 链接 操作 尽 可 能 地 容易 实现 。 潜在 的 转换 操作 可 能 是 将 日 期 、 电 话 号 码 和 地 
址 等 属性 中 的 数据 转换 成 标准 格式 表示 的 数据 ， 或 在 数据 集合 中 拆 分 /合并 以 匹 
配 另 一 个 模式 。 
2 链接 阶段 。 执 行 实际 的 记录 链接 。 链接 阶段 包括 确定 性 链接 和 概率 性 链 
接 19 
确定 性 链接 涉及 一 个 或 多 个 属性 的 精确 匹配 ， 它 又 分 为 中 简单 确定 性 链接 
和 @@ 传 递 确定 性 链接 。 简单 确定 性 链接 的 思想 是 : 如 果 多 个 记录 在 给 定 对 应 属性 
中 具有 相同 的 值 ， 就 将 这 些 记 录 链 接 起 来 。 简单 确定 性 链接 是 最 简单 的 方法 。 传 
弟 确 定性 链接 的 思想 是 ;如果 多 个 记录 存在 有 任何 属性 值 匹 配 ， 就 将 这 些 记录 
链接 起 来 。 传 递 确定 性 链接 能 在 某 些 属性 值 缺 失 情况 下 推理 出 多 个 记录 指向 同一 
实体 。 
概率 链接 又 称 为 模糊 链接 ， 即 在 两 个 属性 值 不 完全 匹配 的 情况 下 ， 对 记录 
实施 链接 。 其 中 ， 最 著名 的 是 Fellegi-Sunter 模型 中 ， 在 属性 条 件 独立 的 情况 下 ， 
该 模型 描述 了 一 组 被 证 明 是 最 优 的 规则 。 其 主要 思想 是 计算 每 个 属性 的 区 别 能 
(Discriminatory Power) ， 然 后 组 合 这 些 属 性 以 得 到 一 个 判定 两 个 记录 是 指 问 
同一 实体 的 概率 。 然 而 ， 在 大 数据 集中 ， 概 率 链 接 不 易 实 现 。 此 外 ， 由 于 概率 链 
接 方法 考虑 匹配 项 〈 记 录 或 属性 ) 的 概率 ， 因 此 ， 在 减少 false non-matches 的 
同时 《被 错误 的 分 为 不 匹配 的 记录 ) ， 也 可 能 会 产生 false matches (被 错误 的 分 
为 匹配 的 记录 ) 。 
(3) 后 链接 阶段 。 审 查 链接 的 结果 ， 检 查 “ 可 能 链接 ”的 记录 ， 并 最 终 使 
用 这 些 结果 。 该 阶段 存在 3 种 操作 方式 : 链接 :，@ 合 并 和 @@) 相 似 重 复 记 录 删 除 
链接 : 在 每 个 记录 中 增加 一 个 指向 其 他 链接 记录 的 引用 ， 或 在 不 同 的 数据 集中 
存储 这 些 链接 。 合 并 : 如 果 要 链接 两 个 不 同 的 数据 集 ， 可 以 在 它们 之 上 创建 一 个 
使 两 个 数据 集 统一 的 视图 。 相似 重复 记录 删除 : 仅 保存 一 条 必要 的 记录 以 避免 重 
复 


3 以 精度 为 目标 的 实体 解析 

解析 精度 主要 涉及 记录 间 比 较 技 术 的 质量 ， 这 主要 体现 在 解析 过 程 中 所 采 
用 的 记录 比较 方式 。 根据 方法 的 不 同 ， 当 前 的 研究 主要 有 基于 增 量 式 、 基 于 统计 
方法 和 基于 相关 信息 3 类 方法 。 
3.1 基 于 增 量 式 
与 在 解析 过 程 中 假设 规则 和 数据 固定 不 变 这 一 情形 不 同 的 是 ， 基 于 增 量 式 


方法 的 实体 解析 过 程 将 规则 和 数据 将 视 为 动态 变化 的 ， 因 此 能 很 好 地 适应 具有 
复杂 结构 、 数 据 更 新 速度 快 的 大 数据 环境 。 
C1) 规则 演化 

SE Whang 等 2 针对 实体 解析 结果 相互 影响 的 问题 ， 基 于 解析 规则 的 动态 语 
义 和 解 析 规 则 之 间 的 关系 ， 提 出 了 一 种 针对 解析 规则 变化 情况 的 实体 解析 方法 。 
该 方法 考虑 如 何 利用 已 有 的 解析 结果 来 深入 地 研究 实体 解析 问题 。 特别 地 ， 对 规 
则 演化 进行 了 形式 化 ， 提 出 了 规则 单调 和 上 下 文 无 关 两 个 约束 ， 指 出 满足 这 两 
个 约束 的 规则 可 使 用 增 量 方 式 进行 处 理 。 由 于 采用 新 规则 时 的 解析 过 程 能 利用 先 
前 的 解析 结果 ， 因 此 能 减少 计算 复杂 度 ， 并 提高 解析 精度 。 

Steven Euijong Whang 等 “指出 实体 解析 过 程 不 是 一 次 性 过 程 ， 而 是 一 个 随 
着 人 们 对 数据 、 模 式 和 应 用 的 认识 程度 的 加 深 而 变化 的 过 程 。 在 大 多 数 情况 下 ， 
用 来 解析 记录 的 逻辑 规则 会 不 断 演变 ， 因 为 应 用 本 身 会 不 断 演变 ， 而 且 用 于 比 
较 记 录 的 专业 知识 水 平 也 会 不 断 提 高 。 由 于 将 这 些 变 化 因素 考虑 进去 ， 因 此 解析 
精度 能 不 断 得 到 提高 。 特 别 地 ， 作 者 认为 在 对 大 规模 数据 集 进行 解析 时 ， 所 采用 
的 从 头 开始 重新 进行 解析 的 朴素 方法 (naive) 是 不 能 容忍 的 ， 因 为 计算 代价 高 
CH o 

Steven Euijong Whang 45? 针对 演化 规则 提出 了 一 个 增 量 式 实体 解析 方案 。 
由 于 该 方案 借助 迭代 块 和 联合 实体 解析 两 种 方法 ， 因 此 它 能 提供 很 好 的 扩展 性 
和 精确 性 ， 并 能 适用 于 不 同 的 应 用 领域 。 

(2) 数据 演化 

通常 ， 实 际 中 采用 的 数据 分 块 方 法 并 不 能 保证 块 间 数据 的 独立 性 ， 因 为 有 
些 相 似 的 记录 可 能 被 分 配 到 不 同 的 块 中 ,在 这 种 情况 下， 分 块 方法 在 提升 解析 效 
率 的 同时 ， 也 降低 了 解析 精度 。 为 解决 这 个 问题 ，Steven Euijong Whang $°" Je 
于 增 量 计算 的 思想 ， 提 出 了 返 代 的 实体 解析 方法 。 在 每 次 欠 代 中 ， 首 先 把 上 一 次 
和 欠 代 计算 得 到 的 每 个 分 块 的 实体 解析 结果 传输 到 其 他 块 内 ， 然 后 每 个 分 块根 据 
收 到 的 更 新 结果 增 量 式 地 计算 各 自 块 内 的 实体 解析 结果 ， 这 样 的 迭代 计算 一 直 
进行 直到 结果 不 再 改变 或 迭代 次 数 达到 给 定 阔 值 ,该 方法 在 保证 解析 效率 的 前 提 
下 提高 了 解析 结果 的 精度 。 

Anja Gruenheid 等 于 注意 到 大 数据 时 代 下 的 数据 更 新 速度 往往 较 快 ， 这 将 使 
得 以 前 的 解析 结果 很 快 失效 。 为 解决 此 问题 ， 作 者 提出 了 一 个 端 到 端的 框架 ， 它 
能 在 数据 更 新 (包括 插入 ， 删 除 和 修改 〉 到 来 时 以 一 种 增 量 式 方法 更 新 解析 结 
果 。 重 要 的 是 ， 在 不 影响 原 有 解析 结果 的 情况 下 ， 提 出 的 算法 不 仅 能 将 数据 更 新 
中 的 记录 与 现 有 的 聚 簇 进行 合并 /分 离 ， 还 能 利用 数据 更 新 中 的 新 证 据 来 修正 先 
前 存在 的 解析 错误 ,实验 表明 ， 算 法 能 显著 地 减少 解析 时 间 ， 同 时 无 损 解 析 质 量 

Sunita Sarawagi 等 ”从 另外 的 角度 出 发 ， 针 对 top-k 计数 查询 提出 了 “一 边 
求解 查询 一 边 解 析 实 体 ” 的 方法 ,算法 的 基础 在 于 ， 一 般 的 查询 涉及 的 数据 记录 
数量 较 小 ， 算 法 没有 必要 在 所 有 数据 记录 上 运行 实体 解析 算法 ， 仪 需要 处 理 查 
询 结果 中 涉及 到 的 记录 ,该 方法 的 难点 在 于 ， 解 析 查 询 结果 中 的 记录 可 能 需要 查 
询 结 果 之 外 的 数据 记录 ， 而 快速 得 到 查询 结果 以 外 的 相关 数据 记录 也 是 一 件 困 
难 的 事情 。 

Benjelloun 等 "提出 了 “F-Swoosh” 算 法 ， 该 算法 能 很 好 地 适应 数据 增 量子 
的 情况 ， 且 考虑 到 了 新 增 的 数据 或 特征 。Heiko Müller 等 "认为 清洗 数据 是 一 项 
耗 时 且 代 价 高 昂 的 任务 。 在 已 获得 干净 的 数据 集合 后 ， 当 数据 集中 的 一 个 记录 值 
出 现 更 改 时 ， 清 洗 过 程 仅 需 从 包含 该 更 改 值 的 记录 开始 即 可 ， 从 而 避免 对 整个 


数据 库 执 行 清洗 的 过 程 。Hernandez 等 ”认为 在 对 数据 进行 合并 和 清洗 前 ， 上 串联 
所 有 数据 所 需 的 时 间 和 空间 被 证 明 是 代价 高 昂 的 。 为 此 ， 提 出 了 一 个 增 量 式 算 法 
在 短 时 间 内 能 很 好 地 解析 新 增 的 数据 。 

另 一 个 与 增 量 式 解 析 技术 密切 相关 的 是 增 量 式 图 形 聚 类 。 Claire mathieu 5579 

研究 增 量 式 相 关 性 聚 类 CIncremental Correlation Clustering) 。 作 者 认为 ， 当 数据 
源 不 断 动态 变化 、 演 化 时 ， 每 次 数据 更 新 操作 都 从 最 开始 应 用 解析 的 方法 是 代价 
高 昂 的 。 为 解决 速度 方面 的 问题 ， 作 者 采用 增 量 式 聚 类 技术 。 其 中 ， 算 法 主要 关 
注 两 点 : 也 每 次 增加 一 个 结 点 ，@ 已 识别 的 聚 类 结果 需要 保存 。Charikar, M. 等 
2 研究 增 量 式 聚 类 ， 与 其 他 聚 类 方法 不 同 的 是 ， 该 方法 需要 预先 设 定 聚 类 结 
中 聚 徐 的 数目 。 该 聚 类 方法 的 思想 是 : 在 给 定数 据 流 的 情况 下 ， 增 量 式 聚 类 算法 
使 形成 的 最 大 聚 秘 直 径 最 小 。 最后， 作者 将 增 量 式 聚 类 问题 定义 为 : 对 一 个 包含 
?个 结 点 《数据 ) 的 更 新 序列 来 说 ， 维 持 一 个 包含 & 个 聚 簇 的 集合 ， 使 得 每 当 有 
输入 结 点 出 现时 ， 它 或 者 被 分 配 到 当前 集合 中 的 某 一 个 聚 簇 中 ， 或 者 在 该 集合 
中 新 增 一 个 仅 包 含 该 结 点 的 单元 素 聚 徐 。 
此 外 ， 由 于 针对 数据 演化 的 实体 解析 问题 与 聚 类 数据 流 的 问题 密切 相关 ， 
Aggarwal 等 ”提出 了 个 CluStream 算法 ， 由 于 考虑 到 数据 流 具 有 不 断 随时 间 
变化 的 特性 ， 因 此 提出 的 算法 能 在 不 断 变 化 环境 中 的 不 同时 间 区 间 上 很 好 地 进 
行 聚 类 操作 。 


3.2 基 于 统计 方法 


与 统计 方法 相关 的 是 特征 选择 问题 ， 特 征 选择 的 好 与 坏 ， 直 接 决 定 了 解析 
的 精度 。 尽管 统计 方法 增加 了 推理 和 学 习 的 复杂 度 ， 但 是 通过 利用 这 些 以 前 被 忽 
视 的 数据 属性 ， 可 有 效 地 改进 传统 的 实体 解析 算法 ， 从 而 提高 解析 精度 。 

Xin Dong 等 外 研究 利用 记录 间 的 3 个 主要 特征 来 实现 一 种 有 效 利用 机 器 学 
习 的 实体 解析 算法 。 首先， 利用 记录 间 的 关联 来 为 记录 间 的 比较 设计 新 方法 。 接 
着 ,传播 记 录 的 决策 信息 《匹配 或 不 匹配 以 累积 正面 和 负面 证 据 。 最 后 ， 通 过 
合并 各 属性 值 来 逐步 丰富 各 记录 信息 ， 从 而 提高 了 实体 解析 精度 。Parag Singla 
等 20 提 出 了 联合 推理 方法 ， 对 所 有 候选 匹配 对 进行 同时 推理 ， 并 人 允许 信息 从 一 
个 候选 匹配 对 经 由 它们 共有 的 属性 传播 到 另 一 候选 匹配 对 。 由 于 该 方法 基于 条 件 
随机 场 (Conditional Random Fields, CRF) ， 因 而 提高 了 实体 解析 精度 。 

此 外 ， 在 基于 统计 学 的 实体 解析 方法 中 ， 参 数 设置 错误 和 训练 数据 缺失 会 
导致 检测 结果 不 准确 。 针 对 这 类 问题 ，Peter Christen 等 5 号 提出 了 一 种 两 阶段 的 统 
计 学 方法 ,在 第 一 阶段 ， 从 参与 比较 的 记录 对 中 自动 选择 高 质量 的 训练 样 例 ， 在 
第 二 个 阶段 ， 使 用 这 些 训练 样 例 来 训练 一 个 支持 问 量 机 SVM) 的 分 类 器 。 由 
于 这 种 两 阶段 方法 能 有 效 地 调整 解析 过 程 ， 从 而 能 提高 实体 解析 精度 。 

楼 俊杰 等 中 在 基于 马尔 科 夫 J 逻辑 网 络 (Markov Logic Networks，MLNs) 的 
实体 解析 算法 体系 中 ， 引 入 一 个 可 变 权重 的 规则 ， 试 图 解决 原 有 系统 无 法 处 理 
的 记录 二 义 性 问题 (两 条 记录 中 出 现 的 “John Smith” 其 实 并 非 指 向 同一 人 ) « H 
于 引入 了 更 能 反映 实现 情况 的 可 变 权重 规则 ， 因 此 提出 的 算法 能 在 一 定 程度 上 
提高 解析 精度 。 


3.3 基 于 相关 信息 


尽管 传统 上 实体 解析 算法 通常 使 用 各 种 属性 相似 措施 来 单独 地 匹配 记录 ， 
但 如 果 能 利用 其 他 相关 信息 来 辅助 实体 解析 过 程 ， 将 使 实体 解析 算法 能 很 好 地 


适应 大 数据 集 环 境 ， 并 使 其 具有 很 好 的 扩展 性 、 灵 活性 。 


Surajit Chaudhuri 4& ?" 38 1: 12:3 
多 个 变 体形 式 来 扩展 给 定 的 参考 实体 表 ， 这 样 一 来 就 构成 了 


系 词典 。 由 于 能 利用 词典 的 精确 信息 


电文 档 集 合 ， 并 利用 参考 实体 表 中 每 个 实体 的 


个 字符 串 


等 价 关 


来 计算 实体 之 间 的 相似 性 ， 因 而 提高 了 实体 


解析 的 精度 。Liangcai Shu 等 ”提出 了 一 个 能 描述 实体 之 间 关 系 的 生成 式 潜在 主 


题 模型 ， 


器 ， 因 而 能 


度 信 息 ， 


由 于 该 算法 不 仅 能 


HH 了 一 个 扩展 的 实体 解析 算法 ， 


3.4 研 究 方法 分 析 比 较 


以 精度 为 目标 的 实体 解析 过 程 ， 主 要 关 沪 


主要 研究 方法 的 比较 情况 ， 如 表 1 所 示 : 


表 1 以 精度 为 目标 的 主要 


来 学 习 


rs ob 


b B5 


个 高 性 能 


完 方法 的 比较 


以 精度 为 目标 的 实体 解析 《主要 关注 相似 重复 记录 间 比 较 技 术 的 质量 ) 


采用 的 方法 
基于 增 量 式 ; 


中 规则 演化 ， 包 数据 


演化 


基于 统计 方法 : 


OA HED: 


DÆ 
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解析 精度 ; OKH 
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四 男 Ry ONSEN 
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习 算 法 ， 能 够 辅助 
计算 ， 从 而 
重复 记录 的 解析 ; @ 利 用 
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能 很 好 地 应 


高 的 准确 性 


隐 含 狄 利克 雷 分 布 双 主 题 模 型 CLDA-dual model) ， 并 给 出 了 高 精度 
的 实体 解析 算法 。 由 于 该 模型 能 使 用 语料库 中 全 局 信息 
提高 解析 精度 。 
Vibhor Rastogi 4& ?* 3 H 


结果 来 进行 综合 推理 。 


的 分 类 


上 用 比较 的 中 间 
I 用 记录 间 的 相似 信息 、 记 录 同 现 的 频 
还 充分 考虑 了 记录 比较 结果 之 间 的 影响 ， 因 而 能 提高 实体 解析 精度 。 
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角 率 较 


解析 效率 主要 涉及 解析 算法 的 执行 速度 ， 这 主要 体现 在 两 个 方面 : 


少 需要 的 记录 对 比较 次 数 ，; 


思想 等 


一 是 减 


二 是 提高 记录 属性 值 的 比较 效率 。 根 据 方法 的 不 同 ， 
a ls E 符 串 相似 和 基于 其 他 

究 学 者 在 提升 解析 效率 方面 做 出 了 
eee a a 


方法 。 尽管 很 多 
巨大 努力 ， 但 现 有 算法 在 最 坏 情况 下 的 时 
即 计 算 复 杂 性 仍然 远 超 过 线性 ， 因 而 难以 应 用 


于 大 数 


据 。 


4.1 基 于 分 块 


当 需 要 比较 的 记录 规模 较 大 时 ， 传 统 上 采用 的 基本 技术 是 利用 “ 髓 套 ” 循 
环 方式 来 逐一 比较 记录 对 ， 这 将 需要 大 量 的 计算 开销 ,分 块 方法 的 目的 就 是 为 了 
缩小 比较 空间 ， 进 而 减少 记录 间 的 比较 次 数 ， 最 终 实现 不 影响 解析 准确 性 和 完 
整 性 的 较 高 解析 效率 目标 。 笔者 从 属性 值 、 自 动 学 习 和 分 块 方法 比较 3 个 方面 对 
现 有 研究 进行 综述 。 

(1) 属性 值 

为 提升 实体 解析 的 效率 ，Herndandez MA 等 ”? 较 早 地 提出 了 数据 分 块 处 理 的 
思想 首先， 记录 按 照 不 同 的 属性 值 被 单独 排序 ， 然 后 ， 利 用 固定 长 度 的 窗口 顺 
序 扫 描 每 一 个 记录 序列 ， 并 在 窗口 内 部 对 记录 进行 匹配 操作 。 最 后 将 多 个 属性 上 
的 匹配 结果 合并 得 到 最 后 的 实体 解析 结果 中 。 假 设 窗 口 大 小 为 /， 记 录 数 目 为 7， 
该 方法 能 够 将 实体 解析 的 代价 从 Ol ) 降 至 CU n, GREK, FES BROAD 
将 会 大 大 提升 实体 解析 的 效率 。 然 而 ， 在 保证 实体 解析 精度 的 情况 下 ，/ 的 最 坏 
情况 是 "7， 因 此 算法 的 最 坏 时 间 代 价 仍 然 是 O(n ) 。 

Andrew McCallum 等 9 利用 数据 分 块 处 理 的 思想 ， 借 助 一 个 代价 不 高 的 距 
离 度 量 来 有 效 地 将 数据 分 成 重叠 的 子 集 ,该 方法 首先 将 记录 按照 菜 些 属性 值 的 不 
同 分 为 独立 的 块 ， 然 后 在 每 个 块 内 单独 运行 聚 类 算法 ， 最 后 把 每 个 块 上 的 聚 类 
结果 合并 得 到 实体 解析 结果 中 。 该 方法 降低 了 每 次 调用 聚 类 算法 的 时 间 代 价 ， 整 
体 上 提升 了 基于 聚 类 方法 的 实体 解析 算法 的 效率 。 

昧 灵敏 等 ' 吕 针对 关系 数据 库 中 实体 解析 效率 问题 ， 提 出 在 基于 分 块 技术 的 
基础 上 采用 信息 增益 方法 和 概率 统计 方法 来 计算 记录 属性 的 权重 ， 该 权重 代表 
当前 属性 在 记录 中 的 重要 性 。 通 过 将 各 个 属性 的 权重 分 别 计算 以 充分 反映 关键 属 
性 的 重要 性 ， 是 一 种 更 符合 现实 的 情况 ， 因 此 这 不 仅 提 升 了 解析 效率 ， 而 且 解 
析 的 准确 性 也 没有 受到 影响 。 

(2) 自动 学 习 

Hung-sik Kim 等 "针对 数据 规模 比较 大 的 情况 ， 提 出 一 个 迭代 的 局 部 敏感 
Hash 算法 (Locality-Sensitive Hashing, LSH) ， 以 实现 快速 、 精 确 的 分 块 目的 。 
由 于 该 算法 能 动态 合并 基于 LSH 的 Hash 表 ， 因 此 能 对 数据 进行 快速 分 块 。 重要 
的 是 ， 作 者 还 给 出 了 在 解析 速度 上 具有 一 定 优越 性 的 对 应 解析 算法 ， 因 而 能 较 
好 地 提升 解析 效率 。 

Rares Vernica 等 研究 如 何 有 效 并 行 地 执行 实体 解析 ， 提 出 了 利用 云 计算 
环境 (Map Reduce) 来 加 速 大 规模 数据 上 的 实体 解析 效率 ,由 于 在 云 计算 环境 基 
础 上 提出 了 一 个 基于 数据 分 块 计算 思想 的 3 阶段 方法 ， 因 此 可 以 以 每 个 阶段 为 
基础 来 探索 若干 解决 方案 ， 为 高 效 的 实体 解析 过 程 提供 了 新 的 思路 。Mikhail 
Bilenko 等 ' 包 研究 引入 一 个 自 适应 框架 来 自动 地 学 习 能 保证 效率 和 准确 性 的 分 块 
函数 。 由 于 提出 了 两 种 基于 谓词 的 可 学 习 分 块 函 数 方法 ， 并 提供 一 个 学 习 算 法 来 
训练 他 们 ， 因 此 这 种 基于 机 器 学 习 的 自 适应 数据 分 块 策略 能 较 好 地 提升 解析 效 

(3) 分 块 方法 比较 

Rohan Baxter 等 .分 比 较 全 面 地 综述 了 实体 解析 方法 中 的 各 种 数据 分 块 策 略 。 
将 二 元 模型 索引 (Bigram Indexing) 和 Canopy 聚 类 方法 与 标准 的 传统 分 块 算法 
和 近邻 排序 算法 CSorted-neighbourhood Blocking) 方法 进行 比较 。 结果 表明 ， 由 


于 二 元 模型 索引 和 Canopy 聚 类 方法 能 提供 可 扩展 的 分 块 方法 ， 因 此 有 潜在 提升 
速度 和 提高 精度 的 可 能 性 。 

Toralf Kirsten 等 的 对 两 种 实际 中 经 常用 到 的 数据 分 块 方法 进行 了 形式 化 描 
述 和 对 比分 析 。 其 中 ， 一 种 是 利用 简单 的 策略 (例如 随即 选取 的 Hash 函数 ) 将 
数据 划分 块 ， 另 一 种 是 利用 茶 些 语 义 信息 “例如 基于 属性 值 的 描述 性 规则 将 
数据 划分 块 ,在 对 比 中 ， 从 实体 解析 的 时 间 效 率 方 面 来 看 ， 后 一 种 方法 具有 明显 
的 优势 。 然而， 在 实际 应 用 中 要 找到 具有 适合 语义 信息 的 规则 是 非常 困难 的 ， 有 
时 甚至 是 不 存在 的 。 


4.2 基 于 字符 串 相 似 


大 多 数 应 用 在 比较 过 程 中 都 假设 属性 值 是 字符 串 ， 因 此 如 何 探索 两 个 字符 
串 在 字符 级 别 上 、 子 字符 串 级 别 上 的 差异 ， 并 设计 出 有 效 的 字符 串 相似 算法 ， 是 
需要 考虑 的 重要 方面 。 

(1) 字符 串 特 征 

Nick Koudas 等 汪 较 早 地 提出 了 针对 字符 串 相似 的 实体 解析 优化 问题 。 由 于 
通过 在 大 数据 库 上 部 署 弹性 的 多 个 属性 的 字符 串 匹 配方 案 ， 因 此 能 给 出 初步 的 
优化 算法 ， 但 该 算法 使 用 了 不 能 被 文本 方式 捕捉 的 语义 等 价 信 息 。Chaudhuri, S. 
等 “对 关系 数据 上 基于 字符 串 相 似 匹 配 的 实体 解析 问题 作 进一步 的 抽象 ， 提 出 
了 “相似 连接 ”和 “相似 查询 ”操作 ， 并 将 其 作为 数据 库 的 一 个 基本 操作 来 研 
Five 

Chuan Xiao 等 “针对 相似 连接 问题 ， 提 出 将 字符 串 的 相似 计算 问题 转化 为 
集合 的 相似 连接 问题 ， 并 提出 一 个 集合 的 相似 连接 操作 算法 。 由 于 结合 了 基于 字 
符 串 前 绥 . 后 缀 的 过 滤 方 法 ， 因 此 提出 的 方法 能 利用 顺序 信息 避免 对 所 有 可 能 以 
记录 对 进行 相似 性 计算 ， 从 而 提升 了 基于 相似 连接 的 解析 方法 的 效率 。 
Panagiotis Papapetrou 等 “针对 变 长 字符 串 ， 使 用 预先 计算 的 对 齐 分 (Alignment 
Scores) ， 提 出 了 基于 变 长 字符 串 搜 索 的 方法 来 解决 长 字符 的 相似 查询 问题 ， 
提升 了 属性 值 为 长 字符 串 情形 的 实体 解析 效率 。 

(2) n-gram (na 元 字符 串 ) 

Chen Li 4&9?" gt 7t T SEF n-gram 的 近似 字符 串 匹 配 问题 ， 其 基本 思想 是 在 
字符 串 上 建立 n-gram 索引 ， 将 字符 串 之 间 的 距离 转化 为 对 应 n-gram 交集 的 数量 ， 
然后 基于 n-gram 的 集合 语义 给 出 高 效 的 相似 连接 算法 ， 提 升 了 实体 解析 效率 。 
Behm, A. 等 ”针对 索引 占用 空间 大 的 问题 ， 提 出 了 利用 倒 排 索引 来 加 速 相似 查 
询 的 方法 。 由 于 该 方法 基于 丢弃 字符 串 列表 和 组 合 相 关 列 表 来 缩减 索引 空间 ， 进 
而 能 维持 有 效 的 查询 处 理 ， 因 此 提升 了 实体 解析 效率 。 

印 越 峰 等 号 提出 了 一 种 高 效 的 基于 n-gram 的 聚 类 算法 ， 在 聚 类 过 程 中 ， 采 
用 优先 队列 算法 来 准确 地 聚 类 相似 重复 记录 ， 并 以 大 量 翔实 的 实验 数据 证 明了 
此 种 解析 方法 的 合理 性 和 高 效 性 。 由 于 该 算法 能 适应 常见 的 拼写 错误 ， 如 插入 、 
删除 、 蔡 换 、 交 换 和 单词 交换 ， 因 而 有 较 好 的 解析 效率 ， 而 且 复杂 度 仅 为 CCD) 。 
4.3 基 于 其 他 方法 
在 实体 解析 过 程 中 如 能 有 效 地 考虑 其 他 一 些 重 要 信息 ， 将 能 大 大 降低 数据 
处 理 的 时 间 和 空间 复杂 度 ， 进 而 提升 解析 效率 。 这 方面 的 信息 包括 : 图 形 处 理 器 
实体 随时 间 演 化 的 特性 、 大 数据 环境 中 的 数据 噪声 、 人 机 混合 方法 和 大 数据 工具 


方法 等 。 


Michael D. Lieberman 等 中 研究 了 高 维 数据 上 的 实体 解析 问题 ， 提 出 了 一 种 
基于 图 形 处 理 器 的 相似 联合 算法 ，LSS 算法 。 由 于 利用 了 从 希 技 术 ， 并 结合 图 形 
处 理 器 特性 给 出 了 两 种 基本 的 排序 和 检索 数据 操作 对 应 的 高 效 实现 方法 ， 因 此 
该 算法 非常 适合 高 维 数 据 上 的 相似 联合 解析 操作 。 

HERZ dx AEE Map Reduce 编程 模型 ， 提 出 了 一 种 迭代 的 并 行 处 理 框 架 。 
它 采 用 面向 学 习 的 分 类 方法 对 实体 进行 解析 ， 根 据 属性 相似 的 传递 性 ， 并 结合 
言 的 本 身 特 性 ， 对 记录 进行 高 效 聚 合 。 由 于 Map Reduce 编程 模型 非常 

合 于 实体 解析 过 程 一 体 化 处 理 ， Fa SHR RSA RARER RU ISTA 
Een 点 ， 而 且 数据 分 区 和 并 行 处 理 技术 避免 了 大 量 连接 引发 的 内 存 滋 
出 问题 。 Job aeu T 种 机 器 计算 与 众 包 〈Crowdsourcing) 相 结合 的 实 
体 解 析 方法 。 该 方法 首先 采用 MapReduce 并 行 计算 框架 排除 不 可 能 匹配 的 记录 
对 ， 进 而 减少 人 类 智能 任务 的 数量 ， 然 后 由 人 工 进行 确定 性 标注 , 此外， 为 了 文 
持 隐 私 保护 ， 在 众 包 计算 时 提出 了 基于 角色 的 访问 控制 模型 和 重要 信息 隐藏 策 
略 。 由 于 作者 采用 的 人 机 结合 方法 充分 利用 了 机 器 和 人 工 处 理 的 优势 ， 因 此 解析 
过 程 中 的 高 效率 和 高 精度 能 较 好 地 得 到 保障 ， 并 且 能 有 效 避 免 信息 泄漏 问题 。 

王 宁 等 5 针对 大 数据 环境 下 传统 的 实体 解析 算法 在 效率 、 质 量 ， 特 别 是 在 抗 
噪声 能 力 方面 的 表现 并 不 理想 的 问题 ， 提 出 了 一 种 两 层 相 关 性 聚 类 算法 (Two- 
Tiered) 。 由 于 该 算法 基于 相关 性 村 € (Correlation Clustering) ， 且 引入 能 有 效 
定义 节点 和 类 之 间 关 联 程度 的 结 点 的 邻居 关系 ， 因 而 提出 的 算法 在 计算 代价 、 抗 
噪声 能 力 和 可 扩展 性 方面 均 优 于 传统 算法 。 

杨 丹 等 研究 如 何 对 数据 空间 中 具有 时 间 信 息 的 实体 进行 解析 ， 提 出 了 一 
个 四 阶段 的 以 时 间 为 中 心 的 集合 实体 解析 策略 (Time-Centered Collective Entity 
Resolution, T-CER) ， 它 基于 以 时 间 为 基础 的 聚 类 算法 (Time-based 
c ro 在 实体 解析 过 程 的 不 同 阶段 ， 工 CER 都 考虑 了 时 间 

恩 所 起 的 作用 ， 并 使 用 时 间 约 束 对 解析 结果 进行 检查 ,由 于 将 数据 的 异 构 性 和 
随时 间 演 化 的 特性 结合 起 来 考虑 ， 因 此 提出 的 解析 方法 更 具 可 行 性 和 有 效 性 。 


4.4 研 究 方法 分 析 比 较 


以 效率 为 目标 的 实体 解析 过 程 ， 主 要 关注 相似 重复 记录 间 比 较 过 程 的 效率 。 
主要 研究 方法 的 比较 情况 ， 如 表 2 所 示 : 


表 2 以 效率 为 目标 的 主要 研究 方法 的 比较 
以 效率 为 目标 的 实体 解析 《主要 关注 相似 重复 记录 间 比 较 过 程 的 效率 ) 
缺点 
基于 分 块 ， ”| 不 但 有 效 地 压缩 了 特征 属性 的 | 四 效率 在 很 大 程度 上 取 次 于 所 选 
ORM, OG | 维 数 ， 而 且 获得 了 组 内 的 记录 代 | 的 键 值 ，@@ 选 择 键 值 通常 依赖 于 
动 学 习 和 加 分 块 | 表 ， 为 后 面 的 高 效 准 确 解析 打下 | 数据 所 属 领域 的 领域 知识 ， 因 此 
方法 比较 了 基础 ，@@ 极 大 地 减少 比较 计算 | 需要 对 该 领域 具有 深刻 了 解 的 专 
的 次 数 ， 从 而 在 一 定 程度 上 降低 | 家 的 参与 ， 这 导致 了 方法 自动 化 
了 计算 复杂 度 ，@ 解 析 过 程 所 需 程度 的 降低 和 结果 不 确定 性 的 增 
内 存 少 ， 从 而 能 够 有 效 地 实现 对 | 加 ，@ 如 果 键 值 选取 不 合适 则 会 
大 量 相似 重复 记录 进行 解析 的 目 SU gee Ee ace 
的 的 子 集合 当中 ， 这 导致 匹配 数量 
的 下 降 ，@ 可 能 影响 解析 结果 世 
完整 性 
的 字符 串 算法 比较 成 熟 可 | @ 不 同 的 字段 相似 性 计算 方法 往 


似 : ÍT; @@ 可 以 很 好 地 处 理 字符 拼写 | 往 对 特定 的 字符 串 类 型 特别 有 效 ; 
ORR REM | 错误 情形 ，@@ 具 有 很 好 的 可 伸缩 | 包 由 于 属性 的 相似 性 和 记录 的 相 
On GHA | Tk: @ 能 有 效 解决 属性 和 记录 之 | 似 性 之 间 是 一 种 非 线性 的 映射 关 
间 相 似 性 是 一 种 复杂 非 线性 关系 | 系 ， 因 此 把 所 有 的 属性 值 合并 成 
的 问题 一 条 长 字符 串 或 者 简单 地 利用 属 
性 相似 性 的 加 权 和 来 计算 记录 相 


似 性 的 方法 是 不 可 取 的 
基于 其 他 方法 :| 巴 充 分 利用 了 相应 的 特性 QD 这 些 方法 各 有 所 长 ， 但 没有 一 
图 形 处 理 器 ;| 较 优 的 匹配 函数 ， 包 计 种 适用 于 所 有 数据 集 的 方法 ， 即 


实体 随时 间 演 | 快 不 具有 通用 性 ; 包 减 少 了 人 为 因 
化 的 特性 ，@@ 大 素 的 影响 ，@@ 可 伸缩 性 差 、 自 适应 
数据 环境 中 数据 2 

RE, OANE 
合 方式 和 @@ 大 数 
据 工 具 等 


5 结论 与 展望 


针对 关系 数据 库 中 的 实体 解析 技术 ， 现 有 的 工作 主要 在 精度 和 效率 两 方面 
展开 研究 ， 力 求 在 精度 和 效率 之 间 找 到 一 种 合适 、 折 衷 的 解析 策略 。 尽 管 现 有 的 
研究 工作 设法 从 整体 上 改进 实体 解析 技术 ， 但 适应 于 大 数据 环境 的 实体 解析 技 
术 比 较 缺 乏 ， 尤 其 是 在 数据 源 的 动态 演化 、 异 构 性 和 非 精确 字符 串 匹 配 等 方面 。 
其 中 ， 这 包括 随时 间 变 化 的 动态 数据 的 实体 解析 ， 大 规模 的 身份 管理 、 隐 私 和 查 
询 驱 动 的 实体 解析 以 及 主动 学 习 和 以 众 包 为 基础 的 实体 解析 。 此外， 基于 图 形 来 
进行 推理 并 解析 的 需求 尽管 超出 了 当前 研究 的 理论 应 用 ， 但 意味 着 它 也 是 一 个 
可 行 的 解决 方案 ,特别 地 ， 基 于 增 量 式 和 基于 分 布 式 的 两 种 解析 策略 能 显著 提高 
解析 精度 和 提升 解析 效率 ， 同 时 具有 较 好 的 可 扩展 性 和 高 效 性 。 

伴随 着 应 用 规模 的 不 断 扩大 、 数 据 量 的 急剧 增长 、 数 据 关 系 的 日 益 复 杂 化 以 
及 数据 处 理 要 求 的 不 断 提高 。 传 统 上 实施 一 对 一 的 记录 比较 过 程 往往 不 是 最 佳 的 
方案 ， 因 为 这 需要 大 量 的 解析 时 间 ， 从 而 难以 满足 效率 要 求 ， 更 难以 胜任 复杂 
的 大 数据 环境 。 鉴于 此 ， 笔 者 认为 未 来 实体 解析 技术 还 存在 3 个 开放 的 研究 方向 

(1) 面向 数据 记录 的 动态 演化 。 一 些 应 用 中 涉及 的 复杂 数据 记录 会 频繁 更 
新 ， 例 如 互联 网 信息 和 社会 网 络 上 的 信息 。 因 此 ， 如 何在 更 新 频繁 的 动态 复杂 数 
据 记 录 集 上 进行 快速 有效 的 实体 解析 ， 是 实体 解析 技术 需要 面 对 的 主要 挑战 。 

(2) 面向 数据 记录 的 集成 。 对 异 构 、 海 量 的 数据 源 进 行 数据 抽取 、 清 洗 与 整 
合 是 有 效 利用 这 些 数 据 的 前 提 。 伴随 而 来 的 是 数据 记录 间 的 不 确定 数据 、 结 构 不 
一 致 和 模式 匹配 问题 , 因此 ， 如 何在 这 些 情况 下 准确 解析 出 描述 同一 实体 的 多 个 
数据 记录 是 实体 解析 技术 需要 面 对 的 主要 挑战 。 

G) 面向 非 精 确 字符 串 匹 配 。 数 据 记 录 间 的 比较 是 一 种 计算 复杂 度 很 高 的 
过 程 ， 而 且 由 于 匹配 的 记录 对 数量 往往 远 少 于 不 匹配 的 记录 对 数量 ， 因 而 绝 大 
部 分 比较 过 程 浪费 在 不 匹配 的 记录 对 之 间 。 因此， 如 何 研究 出 一 些 基础 性 方法 ， 
例如 ， 非 精确 字符 串 匹 配方 法 以 及 字符 匹配 过 程 中 的 最 优 过 滤器 选择 等 ， 以 便 
能 在 匹配 的 准确 性 和 完整 性 得 到 保障 的 同时 尽量 减少 需要 比较 的 记录 数目 ， 是 
实体 解析 技术 需要 面 对 的 主要 挑战 。 
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